ساختارعصبی تقریب تابع مبتنی بر dignet برای یادگیری تقویتی
thesis
- دانشگاه تربیت معلم - تهران - دانشکده فنی
- author نجمه علی بابایی
- adviser میرمحسن پدرام
- Number of pages: First 15 pages
- publication year 1391
abstract
یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش ها به دست آورده می شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است. بنابراین مسئله تعمیم پیش خواهد آمد.روش پیشنهاد شده برای مسائل یادگیری تقویتی با فضای پیوسته ای از حالت ها و کنش ها مناسب است. در این روش از شبکه عصبی خودسازمان ده dignet برای نمایش فضای حالت و کنش استفاده شده است.استفاده از این شبکه سبب می شود در یک فضای پیوسته، عامل بتواند با استفاده از یک حافظه مصرفی مناسب ،میزان داده و زمان قابل قبول به هدف دست یابد.در پیشنهاد این پایان نامه مفاهیم اساسی یک مسئله یادگیری تقویتی و همچنین یک شبکه عصبی خودسازمان ده dignet بررسی می شود، و ساختار این شبکه به عنوان یک روش خوشه بندی کارا برای حل چالش پیوستگی فضای حالات و کنش ها ،در مسئله یادگیری تقویتی پیشنهاد می شود و کارایی آن بررسی و مقایسه می شود.
similar resources
تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی
مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرف...
full textکنترلکننده مقاوم تطبیقی بار فرکانس مبتنی بر یادگیری تقویتی برای یک سیستم قدرت بههمپیوسته شامل SMES
هدف از این مقاله استفاده از یادگیری تقویتی برای طراحی کنترلکنندههای PID و SMES مقاوم و تطبیقی برای کنترل بار فرکانسی در یک سیستم قدرت دو ناحیهای حرارتی است. ابتدا تنظیم پارامترهای کنترلکنندههای PID و SMES بهصورت یک مسئله بهینهسازی مدلشده توسط الگوریتم تدریس - یادگیری اصلاحشده حل میشود. سپس عملکرد همزمان آنها با استفاده از الگوریتم پیشنهادی مبتنی بر یادگیری تقویتی بهینه میگردد. کنتر...
full textروشی نوین برای یادگیری تقویتی فازیِ باناظر برای ناوبری ربات
: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...
full textاثبات رابطه سرگئی وینزکی برای تقریب تابع توزیع نرمال استاندارد
در بین تمام توزیعهای آماری توزیع نرمال استاندارد مهمترین و کاربردیترین توزیع آماری بوده و محاسبه سطح زیر منحنی چگالی و تابع توزیع آن مورد نیاز است. ضابطه این تابع بهصورت یک انتگرال معین بیان میشود، ولی متاسفانه تابع اولیه آن دارای شکل بسته و تحلیلی نیست، لذا باید آن را تقریب زد. در این مقاله رابطه تقریبی سرگئی وینزکی با یک روش جدید اثبات میشود، سپس این تقریب با تغییراتی در رابطه آن بهبود ...
full textیک روش چند عاملی جدید مبتنی بر یادگیری تقویتی برای شکلدهی ترافیک و تخصیص حافظه بافر در روترها
Normal 0 false false false EN-US X-NONE AR-SA MicrosoftInternetExplorer4 ...
full textپیشبینی روند حرکتی قیمت سهام با استفاده از XCS مبتنی بر الگوریتم ژنتیک و یادگیری تقویتی
پیشرفتها در حوزۀ هوش مصنوعی و یادگیری ماشین بهخصوص درزمینۀ محاسبات تکاملی نهتنها ما را قادر به تجزیهوتحلیل مؤثرتر دادهها نموده است، بلکه این امکان را فراهم ساخته که از آنها برای فهم هرگونه الگوی زیربنایی بازارهای مالی استفاده گردد. اقتصاددانان، آماردانان و مدرسان امور مالی همواره علاقهمند به توسعه و آزمایش مدلهای رفتاری قیمت سهام بودهاند. XCS سامانهای مرکب از الگوریتم ژنتیک و یادگیری ...
full textMy Resources
document type: thesis
دانشگاه تربیت معلم - تهران - دانشکده فنی
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023